#GPT Image 1.5 | 熱門關鍵字 | 鉅亨號

就在今天，OpenAI 終於把它的 GPT Image 1.5 抬上來了！說實話，在 Nano Banana Pro（以下簡稱 NBP）已經強到“殺瘋了”的今天，我甚至是帶著一種“挑刺”的心態點開更新的：OpenAI，你這次到底能不能行？是能一舉奪回王座，還是像上次一樣“發佈會猛如虎，實測二百五”？話不多說，我肝了一個通宵，直接上號，殘酷實測走起。精準修圖，誰更聽話？大家玩 AI 繪圖最頭疼的是什麼？肯定是“一改就廢”。明明只想給小姐姐換個髮型，結果圖一出來，臉都給換了，這誰受得了？OpenAI 的宣傳片倒是吹得很神：指那打那，完美保留角色形象。但這畢竟是“買家秀”，實際上手效果如何？為了不冤枉它，我特地隨機選了一個路人人物做測試。圖：測試用素材圖先來個最簡單的：換髮型提示詞：基於這張圖片，將人物的髮型改為齊肩的紅棕色波波頭（Bob頭）。請務必保留頭髮被風吹起的動態效果和陽光照射在頭髮上的強烈高光。人物的面部表情、衣服、姿勢和背景需完全保持不變。GPT 跑出來的第一張圖，乍一看還真不錯：人物沒變，衣服沒變，髮型也確實換成了波波頭，看著挺自然。但俗話說得好，不怕不識貨，就怕貨比貨。我們拉出隔壁的 NBP 來跑同樣的詞：圖：對比圖坦率講，把兩張圖放在我的 4K 大屏上一對比，差距瞬間就出來了：GPT 這邊：臉部光影明顯偏暗，甚至出現了肉眼可見的色斑（這是什麼鬼？），皮膚質感有點髒。NBP 這邊：皮膚通透，頭髮上的高光處理得非常細膩，明顯贏麻了。第一局結論：雖然 GPT 聽懂了指令，但在畫質和光影細節上，NBP 依然略勝一籌。多圖一致性，二哈能拆家嗎？再來試個更有難度的：換裝 + 多圖融合。提示詞：將人物身上的藍色條紋襯衫取代為一件米白色的亞麻質地休閒西裝外套，內搭一件白色圓領T恤。保持她倚靠欄杆的姿勢不變。新的衣物上需要有符合當前強烈側光照明的自然褶皺和陰影。人物頭部和背景保持不變。我試著給人物換了套衣服，GPT 的表現依然穩定，形象保持得很好。但在光影邏輯上，還是老毛病——有點“平”。不過這裡 NBP把原圖的道具給搞丟了……接著，我開始給它上點難度了：多圖融合。我找了兩張女生圖和一張動物圖，要求它們融合在一起。圖：多圖融合示例圖：多圖融合對比不得不承認，這個環節我更喜歡 GPT。它的融合能力簡直驚豔，整張圖片的質感非常像一張真實的電影劇照，那種“無聊和疲憊”的氛圍感拿捏得死死的。而 NBP 這邊……怎麼說呢？它的背景單一了點，但實際上它更好的遵循了提示詞，沙發凌亂，連狗都是疲憊的。現在，加入調皮的二哈試試。提示詞：保持這兩位女士和動物的姿勢、表情完全不變。在背景中加入幾隻正在瘋狂拆家的哈士奇，它們正在撕咬沙發靠墊和跑來跑去，讓場面看起來極其混亂。這個部分我更喜歡 NBP了，GPT 加入的二哈過於瘋狂，感覺有點失真。但他們在多輪編輯中，都很好的延續了之前的形象和風格。既然融合能力不錯，那拿來做電影海報怎麼樣？我讓它設計一張 1950 年代好萊塢風格的電影海報，標題叫《THE ALGORITHM》（演算法）。效果直接驚豔到我了：圖：英文海報利用這三張圖片（兩張女生和一張動物），製作一張 1950 年代好萊塢黃金時期的電影海報。電影標題：海報上方用復古的大寫襯線體展示電影名為 "THE ALGORITHM" (演算法)。角色設定：將兩位女生設計為經典的黑色電影（Film Noir）女主角，穿著優雅的絲綢晚禮服，波浪捲發。將那隻動物設計為她們神秘的同伴，脖子上戴著鑽石項圈。演職員表：在底部加入演職員文字：Starring: The Neural Sisters (左) & The Beast (右)Directed by: Sam AltmanProduced by: OpenAI Studios風格：手繪海報質感，強烈的明暗對比（Chiaroscuro），略帶褪色的特藝彩色（Technicolor）色調。不得不說，這海報挺有感覺的，但似乎人物形像已經對不上了。而且，這個尺度怎麼突然提升了。用中文發現，不僅尺度小了，字幾乎是災難。。（這個後面具體講）圖：GPT 的中文海報變態指令遵循，誰腦子更好使？GPT Image 1.5 有很強的指令遵循能力。來給它一點難度：6x6 網格挑戰。這非常考驗 AI 的邏輯理解能力。我要求它嚴格按照 6 行 6 列的格式，每一個格子裡畫出指定的東西（比如菠蘿、宇航員、Wi-Fi圖示等）。提示詞：畫一個 6x6 的網格建立一個 6 列 x 6 行的網格，網格內容如下：第一排：希臘字母Ω、一個熱氣球、菠蘿、宇航員、水晶球、變色龍第二排：一隻蜘蛛、老式懷錶、淋浴噴頭、望遠鏡、一隻孔雀、一張藏寶圖第三行：一枚紀念幣、一面圓鏡子、一杯冒熱氣的咖啡、“希望”一詞、滑板、字母K 第四排：洗衣機、遊樂園代幣、Wi-Fi圖示、一支口紅、螳螂、棒球帽第五行：電源圖示、數字8、紅色鑽石、樂高積木人、火烈鳥、維京頭盔第6行：一隻橘貓、滅火器、一個錨、遊戲手把、捲紙、數字88除了中文，它做得的確完美。看看 NBP，雖然中文對了。但這那裡是 6x6 宮格？數學是體育老師教的嗎？格局完全亂了。圖：NBP 生成的 6 宮格這一局：GPT 險勝，贏在邏輯，輸在中文。真正的硬傷是文字大家都知道，NBP 幾乎徹底的解決了文字難題，不論中英文。OpenAI 也不甘示弱，給了一個非常複雜的多字的案例，但其實 NBP 設定完整得更好。圖：文書處理對比而換成中文，GPT 就是個災難，不過這點官方自己是承認的。圖：GPT Image 1.5 的中文處理換成 NBP，那幾乎是吊打。圖：NBP 的中文處理即便是簡單點的中文，GPT 也無法勝任。圖：GPT Image 1.5 的中文處理NBP 幾乎完美。圖：NBP 的中文處理NBP 讓資訊圖流行了起來，OpenAI 也提供了類似案例。但不論從效果還是從文書處理，GPT 都是被按在地上摩擦的。圖：資訊圖對比除了升級了圖片功能之外，OpenAI 還新增了一個類似於“範本”的功能，選擇某個範本，然後再選一張自己的圖片，就可以生成這個範本對應的風格。圖：GPT 提供範本選擇通過固定一些常用的風格，很方便那些不想到處找提示詞或者不會寫提示詞的朋友。最終結論：這就是一場單方面的“碾壓”測到這，我不裝了，直接攤牌：GPT Image 1.5 目前全面落後於 Nano Banana Pro。雖然在剛才的某些特定 Case 裡（比如那個瘋狂的二哈），GPT 偶爾能靈光一閃，但這阻擋不了它整體被 NBP 甩在身後的事實。為什麼這麼說？除了前面看到的這些，NBP 還有很多讓創作者無法拒絕的“殺手鐧”，比如：畫質硬傷： NBP 早就支援 2K、4K 直出了，而 GPT Image 1.5 居然還在 1K 解析度裡玩泥巴。這對於要幹活的人來說，簡直是致命傷。資訊差優勢： NBP 可以結合聯網搜尋，直接生成帶即時資料的資訊圖，這點 GPT 目前完全做不到。至於大家關心的速度……官方發佈會吹噓說“速度快了 4 倍”。我實測跑了一個通宵，說實話，完全沒感覺到。體感上甚至比 NBP 還要慢一點。OpenAI 這波“畫餅”，我給負分。當然，它也不是一無是處。它唯一讓我覺得“真香”的功能，是多工並行——前一張圖還在轉圈圈，我可以立馬發下一條指令，不用乾等著。這一點，NBP 確實該學學（NBP 目前只能單線程排隊）。現在的 GPT Image 1.5 給我的感覺，更像是一個氣喘吁吁跟在 NBP 屁股後面追趕的“優等生”，早已不是那個曾經引領時代的“神”了。（其實 GPT 5.2 追趕 Gemini 3 Pro 也類似）所以，我的建議很直接：如果你是普通玩家：想嘗鮮，可以玩玩。如果你要幹活、出圖、接商單：請老老實實續費 Nano Banana Pro，它依然是目前的最佳選擇。OpenAI 這一波？還得回爐再練練。 (AI范兒)

2025/12/17

•

跑分第一，實戰拉胯！GPT Image 1.5被罵慘，奧特曼這波懸了

【新智元導讀】OpenAI深夜祭出大招，全新GPT Image 1.5重磅出世，拿下榜單雙料第一，實力碾壓GoogleNano Banana Pro。但全網實測，罵聲一片。Google剛傳出要發Gemini 3.0 Flash，結果OpenAI反手就是一個「王炸」。就在剛剛，OpenAI拋出了它的「聖誕彩蛋」——新一代旗艦圖像模型ChatGPT Images正式登場。這一次，OpenAI將生圖能力直接拉滿：精準操控：指令理解力大幅提升，真正做到「指那改那」。細節狂魔：畫面細節保留完整，質感細膩。極速生成：速度較前代提升了整整4倍。而且從今天起，所有ChatGPT免費使用者即可上手，開發者也可直接呼叫GPT Image 1.5 API。在LMArena競技場上，它似乎不可戰勝：文生圖：以1264 Elo分登頂榜首，力壓GoogleNano Banana Pro（NBP）。圖像編輯：chatgpt-image-latest以3分優勢險勝NBP奪冠，而GPT Image 1.5緊隨其後位列第4。在Artificial Analysis上，更是拿下了「雙料第一」。然而，反轉來得太快。網友實測後發現，這似乎又是一個「高分低能」的典型。在Yuchen Jin的對比中，GPT的生圖能力基本上能達到GoogleNBP的水平，但智商卻慘遭碾壓。尤其是在處理手寫體筆記時，GPT Image 1.5的生成看著像模像樣，但是完全沒做對。左：ChatGPT Images；右：Nano Banana Pro左：ChatGPT Images；右：Nano Banana Pro這一落差引發了社區的激烈吐槽。有人直言不諱：「GoogleNano Banana Pro依然是王者。」更有人痛批：「這可能是OpenAI又一次令人尷尬、且毫無意義的發佈。」先是GPT-5.2引全網差評，又是GPT Image 1.5真實首測不敵Google「香蕉」。看來，OpenAI年底這場硬仗，徹底敗給了Google......GPT Image 1.5登場史詩級進化言歸正傳。根據官方部落格介紹，現在讓ChatGPT修圖，明顯比之前更聽話了——那怕是細枝末節，只改讓改的地方，同時確保光線、構圖和人物樣貌等元素在輸入、輸出和後續編輯中保持一致。OpenAI華人研究員陳博遠一張圖，驗證了GPT Image代號「榛子」出爐了這樣一來，即可得到真正符合意圖的結果。不論是有用的照片編輯，服裝髮型試穿試戴，還是保留原圖精髓的風格濾鏡和概念轉換，ChatGPT皆可搞定。這一波更新，讓ChatGPT成為隨身攜帶的創意工作室：既能踏實幹活兒，又能放飛玩創意。這不，聖誕奧特曼來了......指那改那，多輪P圖GPT Image 1.5擅長各種「手術」，包括加入、刪減、組合、融合和置換。因此，在想要改變圖片的同時，它還能不丟失圖片原本的「味道」。兩人一狗，GPT Image 1.5精準捕捉了生日會上，他們被迫「營業」的無聊感。Prompt：做一張00年代膠片感的照片，把這倆男的和狗都合成進去，拍他們在小孩生日會上那種一臉無聊的樣子。然後，基於這張圖基底，就可以讓ChatGPT「連環編輯」了，比如背景加一堆熊孩子。Prompt：背景加一堆熊孩子，亂扔東西亂叫喚的那種，搞亂一點。接著，把左邊男子變成動漫臉，小狗改成毛絨公仔，AI精準完成編輯。Prompt：左邊那男的改成手繪復古日漫風，狗改成毛絨公仔，右邊那男的和背景都別動。再讓他們全部穿上OpenAI定製衣服，全部拿捏。（PS：Mark Chen處理脖子有些怪怪的）Prompt：給他們全套上OpenAI的毛衣，就長這樣的。更絕的是，ChatGPT還能一鍵切背景，生日party瞬間變成OpenAI直播間。Prompt：現在把那倆男的去掉，只留那條狗，然後把它放到一個OpenAI直播畫面裡，就跟附圖長得差不多的那種再以滑板運動為例，讓ChatGPT生成一張洛杉磯風景滑板拍攝，90年代末紀實街頭攝影風格。Prompt：洛杉磯風景滑板拍攝，採用以下風格：90年代末紀實街頭攝影，35mm彩色膠片拍攝，徠卡M風格旁軸相機配35mm鏡頭，柯達Portra 400色彩面板，自然日光，柔和對比度，柔和逼真的色彩，嵌入式膠片顆粒，輕微的邊緣柔化，觀察性抓拍構圖，無HDR，無現代數位銳化，無電影照明。就著這張圖，讓滑板男子衣服變成「紅色」，瞬間完成。Prompt：把滑板那人的衣服改成紅的，帽子改成黃的。限速牌寫15，那個卡車得是輛消防車。還不夠熱鬧，左邊來一幫群眾，右邊來只老鷹，空中再加個飛艇，要啥有啥。Prompt：左邊加一幫圍觀群眾，右邊馬路上蹲只老鷹，遠處空中再飛個飛艇。接下來，把這一畫面直接打板印在T恤上，ChatGPT直出圖片。Prompt：弄一件掛在晾衣繩上的T恤，把剛才上面說的那個完整畫面整個印在T恤上，要全包的那種印花。最後，還能讓ChatGPT把這件T恤，給滑板男子穿上。Prompt：能不能把剛才晾衣繩上掛的那件T恤，直接給滑板那哥們穿上？從以上兩個demo中，不難看出GPT Image 1.5加持下，ChatGPT精準編輯圖片的能力——可以做到指那改那，同時多輪編輯後，還能保持一致性。創造力爆表，拿捏細節編輯是基礎，GPT Image 1.5創造力在「大變身」時，尤為耀眼。它可以通過改變和加入元素——比如文字和排版——讓想法落地，同時保留重要細節。這些轉換既適用於簡單的概念，也搞得定複雜的腦洞。而且在新的ChatGPT Images功能中，不用提示詞，使用預設的風格和創意直接上手。比如，上傳一張兩人合影圖，讓ChatGPT電影式風格的海報。Prompt：拿這兩個人的照片做一張老派好萊塢黃金時代風格的電影海報，片名叫《codex》。戲服隨意改，符合那個年代就行。演員名字改成Wojciech Zaremba（左）和Greg Brockman（右）。導演Sam Altman，製片Fidji Simo。製片方寫：A Feel the AGI Pictures Production。可以看到，生成後的創意圖片氣場一下子就來了。而且指令中文字細節，也完美在圖片中還原。再讓奧特曼變成80年代健身教練，頭髮蓬鬆，頭戴髮帶，手戴護腕。Prompt：把我變成那種標誌性的80年代VHS錄影帶風格的健身教練，保留我原本的面部結構和表情。臉部要直接應用正宗的80年代照片和視訊特效：柔和的光暈、輕微的模糊、一點點噪點、輕微的色彩溢出，還有那種能影響膚色和邊緣細節的淡淡掃描線。造型要穿那種活力四射的80年代健身裝，毛巾布髮帶、護腕，還有帶霓虹配色的運動服。頭髮要做成80年代那種蓬鬆造型，順著原本的長度和髮質來。妝容如果是那種亮色系的復古妝，跟整體造型搭的話也可以加。整體光線用柔和的粉彩攝影棚布光，加上輕微畫質受損的VHS美學，讓臉和身體都呈現出那種模擬訊號的氛圍。畫面要是我正在帶大家做有氧運動的狀態。螢幕上再配點相應的文字。不得不說，ChatGPT捕捉到了上世紀80年代那種精髓。就連「glam doll」風格的生成，ChatGPT也能一鍵拿捏。Prompt：做一個超風格化的3D漂浮人頭，要把主角做成那種嬌蠻、迷人、一臉不爽和無感的版本：半眯著眼、挑眉、嘴角輕微上揚，透著經典的「刻薄辣妹」范兒。皮膚要是光滑的亮膠質感，顴骨和鼻頭打上強高光，捕捉柔和的影棚光。眼影要全息偏光的，從紫到青漸變，帶清晰的反光點。頭髮要濃密、順滑、油亮，做成雕塑感的大波浪或者利落的盤發，像拋光亞克力一樣反光。加個金屬鉻的小鼻環（釘或環），帶點拉絲金屬反光。人頭要懸浮在純白中性背景上，傾斜15度，就像高級產品渲染圖那樣。用明亮漫射的影棚光，不要硬陰影，強調光澤感、塑膠感和次表面散射，做出來的深度要逼真。情緒要嬌蠻、時髦、冷酷抽離。機位要特寫肖像，正視鏡頭，85mm焦段。材質要那種超平滑、高光澤、卡通風格的塑料感皮膚、嘴唇和頭髮。奧特曼一瞬間就有了「刻薄辣妹」范兒～更有趣的是，還可以把人物（奧特曼）變成一個有用的掛飾。Prompt：把我變成一個光面模壓玻璃雕刻成的掛飾，表面是高光漆面，從各個角度都能反光。觸感要極其光滑冰涼，份量感要既顯易碎又顯永恆。塗層要是那種有光澤的琺瑯質感，介於陶瓷和糖衣外殼之間——反光度要高，讓微小的高光在曲面上像柔和火花一樣綻放。用細小的金屬裝飾勾勒輪廓和紋理——點、線和金銀絲圖案，動起來會閃爍。這些要用精細的亮粉漆或微珠來做，營造出手工裝飾的感覺；閃光要有層次感，不是平的，讓光線彷彿在凸起的細節上跳躍。整件作品要散發出一種復古的媚俗奢華感：鮮豔的色塊撞色閃亮的點綴，既俏皮又刻意。曲線受光處要有微妙的彩虹光澤——透著金、玫瑰色和珍珠色。表面質感要看起來像是能吃的，像上釉的糖或者倒入模具的融化糖果。用精緻的金環和細繩懸掛著，這掛飾要帶著一種溫和的戲劇感懸停，既喜慶又具雕塑感。這得是那種既標誌性又幽默的物件，一件在聖誕樹燈或影棚燈下閃閃發光的宣言單品——體現坎普風的優雅和手工懷舊感。還是聖誕老人款的。再把奧特曼在蘋果WWDC一次登台演講經典粉色衣服拿出來，再讓如今的他穿上看看效果。Prompt：用上傳的圖片做主體參考。把它改成極簡主義的 90 年代美國時尚廣告。要完全保留主角的面部特徵、比例、姿勢和表情。完全保留雙領Polo衫原本的顏色。風格：乾淨、低調、高端時尚畫報風。穿搭：雙層Polo造型（一件Polo疊穿在另一件上），經典剪裁，中性色或稍微柔和的顏色。場景：無縫攝影棚背景紙，構圖要簡單。布光：柔和均勻的影棚光，帶柔和陰影；膚色要自然。情緒：自信、鬆弛、不過時。品牌寫：GPT‑Shirt。攝影風格：中畫幅膠片質感，微妙的顆粒感，對比度要克制。氣場這塊，還是看本人。一些女孩子最愛的「芭比換裝」，也能在ChatGPT中玩了。Prompt：把他放進一個2000年代的換裝小遊戲介面裡，環境全搞成粉色系。確保這副墨鏡也在套裝裡。奧特曼的衣櫥，很符合他的人設。而且，就連要求中的那副墨鏡，也出現在圖片中。ChatGPT還可以把奧特曼變成經典之作——「戴珍珠耳環的少女」。Prompt：把我放進《戴珍珠耳環的少女》那幅畫裡。還能讓他為飲料廣告代言。Prompt：用附件裡這個男人的臉，為一個叫「SOTA」（一種新蘇打水）的新飲料做一個復古汽水廣告。口號寫：nothing artificial about it（純天然，無人工）。風格要忠實還原那個時代。一輪演示下來，ChatGPT Image創造力這塊更具腦洞。比起GPT-4o主打的吉卜力風，新一版圖像模型更有創意。更聽人話，6x6網格完美還原跟初版GPT Image相比，1.5版本聽指揮的能力更強了。這使得更精準的編輯以及更複雜的原創構圖成為可能，元素之間的關係也能按照預期保留下來。直接上地獄級難度——6x6網格，36個元素，GPT Image 1.5 絲滑、精準，一個不差。Prompt：做一個6列6行的網格圖，內容如下：第1行：希臘字母β、沙灘球、檸檬、機器人、魚缸、青蛙第2行：螳螂、名表、浴缸、墨鏡、彩色蝴蝶、信封第3行：郵票、相框、冒熱氣的餃子、單詞miracle、雙板滑雪板、字母Z第4行：馬桶、地鐵代幣、靜音圖示、香水、蜻蜓、滑板頭盔第5行：藍牙圖示、數字13、綠色的心、魔方、加拿大鵝、士兵頭盔第6行：白狗、救生衣、繩結、鍵盤、紙巾盒、數字14左：新版模型；右：舊版模型文字清晰渲染，直出程式設計在文字渲染上，新模型又進了一步，能處理更密集、字號更小的文字。如下，在一張圖上介紹GPT-5.2，ChatGPT的Markdown渲染的能力，恐怖如斯。Prompt：下面這張卡路里資訊圖，細節還原度超乎想像。Prompt：就連複雜的程式設計介面，ChatGPT都能編譯出來。Prompt：更多提升在其他維度上，新模型也多有改進，讓輸出變得更直接可用。比如，它能畫好很多的人臉，而且看起來更自然。讓ChatGPT Image生成一張1970年代的倫敦，新（左）舊（右）兩版對比差異明顯。在人臉細節上，1.5版本更強，更逼真。Prompt：做一個1970年代倫敦切爾西的街景，要那種照片級的寫實，全焦，纖毫畢現。街上人山人海，還要有一輛公車，車上有個廣告寫著「ImageGen 1.5」，再加上OpenAI的標和副標題「Create what you imagine。整體風格要超寫實的業餘攝影，就像iPhone隨手拍出來似的……再比如，人山人海的「大場面」，新版（下圖左）更逼真更自然，舊版（下圖右）一眼過時：Prompt：金門大橋跟前，烏泱烏泱好幾萬人的大場面。人群裡頭每個人的臉都得看得清清楚楚。一位潛水員在海底彈鋼琴，新版（左）寫實更有一種人味兒。Prompt：一個潛水員在水底下彈鋼琴，旁邊有美人魚圍觀。超寫實的業餘拍攝風格。讓它生成一張帶眩光的照片，下面對比圖，一眼就能看出右邊效果更假。Prompt：做一張圖，圖裡要有一張列印出來的復古老照片。照片上有一年輕亞裔男的和一年輕白人男，倆人在酒吧裡都戴著聖誕帽，其中一個手裡還拿著酒。那張列印照片上得能看見相機閃光燈留下的反光點。照片還得帶個那種可見的細白邊兒，並且稍微歪著點放。百尺竿頭，更進一步為了評估性能，OpenAI重新跑了ChatGPT Image 1.0發佈時的許多示例。在各種案例中，新模型顯示出明顯的改進，儘管結果仍然不完美。雖然此版本代表了有意義的進步，但在未來的迭代中仍有很大的改進空間。比如，日漫風展示海洋不同深度的生物剖面圖，新（左）細節更多，但風格明顯不如舊版（右）的更符合「日漫風」。Prompt：做一張深海生物的海報，要展示不同深度的。搞一個豎著的海洋剖面圖，風格就用那種特別精細、好看的日系動漫風。而黑暗奇幻動漫風，新版（左）也比舊版（右）也出現了明顯的理解偏差：Prompt：給我畫張像，風格要那種黑暗奇幻動漫裡的感覺。OpenAI坦言：生成某些特定藝術風格的能力，比之前的版本退步了。對此，解決方案是：試試用「圖片」功能裡的預設濾鏡，應該能幫上忙。另外，上一版的ChatGPT Images現在也做成了一個自訂GPT，也可以直接去用舊版。另一大侷限是新模型還無法可靠PS多人大合影（上），處理之後人臉特徵容易走形（下）。Prompt：能不能給他們都穿上印著「OpenAI」字樣的T恤，然後讓大家都笑得開心點。人一多，新模型修圖就很難精準地維持住每個人的長相特徵了。另一大侷限是多語言文字渲染，問題重重——中文直接拉完了……更別提阿拉伯語和希伯來語等非英語語言了。Prompt：能不能畫張圖，上面列點用中文點餐的基本常用語。API：便宜了20%API中的GPT Image 1.5提供了與ChatGPT Images相同的所有改進。舉例來說，它在品牌標誌和關鍵視覺效果在多次編輯中保持更一致，因此非常適合圖形和Logo設計等行銷和品牌工作，以及電商團隊從單一來源圖像生成完整的產品圖庫（不同變體、場景和角度）。與GPT Image 1相比，GPT Image 1.5的圖像輸入和輸出價格現在便宜了20%，因此你可以用同樣的預算生成和迭代更多圖像。目前，各行各業的企業和初創公司，包括創意工具、電子商務、行銷軟體等，都已經用上了GPT Image 1.5。奧特曼親手拉響緊急警報這次更新，也是對Google的強勢回擊。就在上個月，因GoogleGemini搶佔市場份額，奧特曼緊急拉響「紅色警報」（code red）。但時，Google剛剛發佈了新旗艦模型Gemini 3和圖像生成工具Nano Banana Pro，後者更是在多個基準測試中登頂LMArena排行榜。面對Google步步緊逼，OpenAI迅速加速節奏：大約5天前，發佈了GPT-5.2；現在，又推出升級版圖像模型。OpenAI的這波更新，顯然是直面GoogleNano Banana Pro的挑戰——後者在開發者中口碑極佳。而OpenAI面對的對手，還遠不止Google。今年8月，Qwen-Image就已支援中英文可讀文字生成；Black Forest Labs也發佈了開源圖像模型Flux.2，實力不俗。這場AI圖像模型之爭，顯然已經進入白熱化階段，目標很明確：贏得企業市場。奧特曼強調了新模型諸多提升和新的編輯功能。作為OpenAI的應用CEO，Fidji Simo則暗中對標GoogleNano Banana Pro，直言這次是從單一文字轉向動態AI體驗。她認為，通過ChatGPT Images及更多功能，縮短「所思」與「所得」之間的距離。人類的思維，遠不止於文字。事實上，那些最扣人心弦的靈感，往往最初只是腦海中的一幅畫面、一段旋律、一個動作或一種模式。如果AI想助我們要釋放全部潛能，它就必須用我們習慣的方式——去理解、去表達、去溝通。Fidji Simo透露，除了圖像生成器，OpenAI還在全面升級ChatGPT的視覺體驗：過去幾個月裡，我一直在談論 ChatGPT 的進化方向：它正從一個被動的、基於文字的產品，蛻變為一個更直觀、更能與你想要完成的任務緊密相連的智能助手。從純文字向多模態和動態 UI（使用者介面）的轉變，正是這一變革的關鍵一環，能看到這些進展，我倍感興奮。Fidji Simo透露，未來使用者在搜尋問題時，將能看到更多可視化資訊和清晰來源。例如換算單位、查比賽比分等場景，圖示比文字更直觀。但體驗過GPT Image 1.5和Nano Banana Pro的網友，直言這次OpenAI「黔驢技窮」：一張用青蛙頭惡搞奧特曼的梗圖，開始流傳：悲傷蛙或佩佩蛙（左），整體上高度模仿OpenAI的預熱圖（右）——相同的背景，相同的文字，相同的眼神，類似的服飾這確實有些在內涵奧特曼了。但最狠的評論，當屬網友在OpenAI推文下直接「打臉」：OpenAI徹底完了。在相同提示詞下，與GPT Image 1.5相比，Nano Banana生成的圖像更加逼真自然，在電商創意素材上極為有利。下圖中，上兩張為GPT Image 1.5生成，下兩張為Nano Banana Pro生成。提示詞：53歲白人德國男性在臥室中，典型的義大利風格臥室，架子上堆著箱子和書籍，背景處有一張書桌，上面擺著 iMac 和散落各處的紙張，身穿灰色連帽衫（帶簡約 logo），戴著婚戒，手腕上有一條低調的紅色手鏈，直視鏡頭，自然隨拍的使用者原創內容風格不過，也有網友表示，GPT Image 1.5生成的「馬斯克和奧特曼聖誕合影」，逼真到完全看不出一絲破綻。考慮到Gemini 3.0 Flash馬上要來了，新的Nano Banana圖像生成功能或許速度更快、價格更便宜，不知道OpenAI這次的Image 1.5是不是「徒勞的掙扎」。可以肯定的是，OpenAI的緊急警報，一時停不下來。 (新智元)

2025/12/17

•

太魔幻了！剛剛OpenAI發佈GPT Image 1.5：Nano Banana Pro 王座不保

Sam Altman 反擊Google，OpenAI新旗艦圖像模型來了就在剛剛，OpenAI正式發佈了新版ChatGPT Images，由全新的旗艦圖像生成模型GPT Image 1.5驅動這一次，無論是從零開始生成圖像，還是編輯現有照片，新模型都能實現“所想即所得”核心升級主要體現在三個方面：精準修圖且保留細節、指令遵循能力更強，以及生成速度提升了4倍我立馬就測試了兩個手頭的case：ChatGPT Images vs Nano Banana Pro提示詞這是一張室內人像寫真風格的照片，整體偏向乾淨、柔和、略帶時尚感與親密氛圍，下面我從構圖、人物、服裝、姿態、光線與整體氣質幾個層面來忠實、細緻地描述：⸻一、整體構圖與環境•豎幅構圖，人物幾乎佔據畫面主體，視覺重心集中在人物的上半身與面部。•場景是一個簡約現代的室內空間，背景為大面積純白色牆面，乾淨、無雜物，刻意弱化環境存在感。•人物坐在一張黑色皮質沙發上，沙發表麵線條硬朗，與人物柔和的膚色形成對比。•沙發上鋪著一塊黑白相間的長毛絨毯，毛感明顯，增加了畫面的層次與觸感⸻二、人物外貌與面部特徵•人物為一位年輕女性，整體氣質偏清秀、柔和。•膚色白皙均勻，質感細膩，幾乎看不到明顯瑕疵。•臉型偏鵝蛋臉，下頜線柔和，沒有明顯棱角。•五官比例協調：•眼睛偏大，雙眼皮清晰，眼神平靜、直視鏡頭，帶有一點若有若無的疏離感。•鼻樑挺直但不誇張。•嘴唇偏小，唇色自然，表情克制，沒有明顯微笑。•整體妝容為清淡自然妝：•底妝輕薄•眼妝乾淨，沒有明顯煙燻或誇張色彩•唇妝偏裸色或淡粉色⸻三、髮型與髮質•長直髮，髮色為偏暖的深棕色。•中分髮型，分縫筆直，左右對稱。•頭髮順直、貼合，發尾自然垂落至腰部附近，整體顯得柔順、有光澤。•發量看起來較多，線條乾淨，沒有明顯卷度。⸻四、服裝細節•穿著一件白色蕾絲連衣裙：•無袖設計，露出肩部與手臂•V 領或淺領口，領口處有精細的蕾絲花紋•裙身貼合身體曲線，但並不誇張•裙襬長度偏短，停留在大腿中上部•面料為蕾絲+內襯結構，蕾絲紋理清晰，風格偏女性化、柔美。⸻五、姿態與肢體語言•人物以側坐姿坐在沙發上：•上半身微微前傾•一隻手自然搭在沙發或毛毯上•另一隻手輕放在腿部•雙腿彎曲收攏，姿態顯得放鬆而內斂。•整體肢體語言偏安靜、克制、略帶親密但不過分張揚。⸻六、光線與攝影風格•使用的是柔和的棚拍或自然補光：•光線均勻，沒有強烈陰影•面部和身體輪廓被柔化•色溫偏中性或微暖，突出膚色的細膩感。•背景虛化不明顯，但因背景簡潔，人物自然突出。•整體風格接近商業人像 / 時尚寫真 / AI 或高精修風格。⸻七、整體氣質總結這張照片給人的感覺是：•乾淨•精緻•柔和•帶一點冷靜與疏離•偏“被觀看”的人像美學，而非抓拍或紀實2k解析度這是生成的效果：第二個case：提示詞：{描述：一幅超逼真的 3D 等距視角傑作，描繪了一幅展開在光滑深色木桌上的魔法地圖。地圖繪製在一張古老而飽經風霜的羊皮紙捲軸上，但畫面中的景色以立體模型的形式躍然紙上。巍峨的岩石山脈，白雪皚皚的山峰，穿透縷縷白雲；一條蜿蜒的碧綠河流從中心流過；山麓覆蓋著茂密蔥鬱的松林。羊皮紙邊緣呈鋸齒狀，左側飾有精美的復古書法，角落則繪有羅盤玫瑰圖案。畫面採用溫暖的電影級光照，焦點清晰，紋理細節豐富，2K 解析度，以奇幻冒險為主題。"negative_prompt": "扁平的，2D 的，簡單的圖畫，模糊的，低品質的，扭曲的，有水印的，糟糕的人體結構，文字疊加，顆粒感強的",“參數”： {"aspect_ratio": "2:3","風格": "電影級 3D 渲染","檢視": "等距" }}生成的效果：看起來ChatGPT Images指令遵循的要比NBR要強（人像），審美能力還不好說目前ChatGPT Images 在大模型競技場圖像排名第一接下來幾天我會大量測試，看看實際表現與此同時，GPT Image 1.5 API也已同步上線，價格相比上一代直降20%下面我們一起來看ChatGPT Images具體細節精準修圖：指那打那，細節不丟新版模型最大的亮點在於對使用者意圖的精準還原當使用者要求對上傳的圖片進行編輯時，模型能夠更可靠地遵循指令，僅改變使用者要求的部分。而在這一過程中，原圖中光線、構圖以及人物外觀等關鍵要素，都能在輸入、輸出及後續的連續編輯中保持一致這就意味著，ChatGPT現在不僅能完成更實用的照片修飾，還能實現更逼真的服裝和髮型試穿。同時，它支援在保留原圖精髓的基礎上，進行風格化濾鏡和概念轉換具體到編輯操作上，模型擅長多種類型，包括：• 加入（Adding）• 刪減（Subtracting）• 組合（Combining）• 混合（Blending）• 移位（Transposing）簡而言之，使用者可以在得到想要的改變的同時，不丟失讓圖片顯得特別的那些原始細節。OpenAI稱其為“口袋裡的創意工作室”創意與能力的全面進化除了修圖，GPT Image 1.5在創意生成和基礎能力上也有顯著提升：創意變換：模型可以通過改變和加入元素（如文字和佈局）來實現創意轉化，同時保留重要細節，這個和Nano Banana Pro表現感覺差不多更強的指令遵循：相比初代版本，新模型能更可靠地執行指令。這不僅利於精準修圖，也能在生成複雜的原創構圖時，按預期保留元素間的關係文字渲染能力強悍升級：在處理更密集、更小的文字時，模型表現強悍畫質提升：在渲染許多小人臉以及整體輸出的自然度等方面，質量均有改進全新互動：無需提示詞也能玩為了讓圖像探索更快捷，OpenAI在ChatGPT中推出了專門的Images首頁使用者可以通過移動應用的側邊欄或chatgpt.com訪問該頁面。這裡不再強制要求使用者編寫提示詞，而是內建了數十種預設的濾鏡和提示，幫助使用者快速啟動靈感這些預設內容會定期更新，以反映當下的流行趨勢API上線：更便宜，更適合企業對於開發者和企業使用者，GPT Image 1.5 API也已同步開放。相比GPT Image 1，新版API在圖像輸入和輸出的價格上便宜了20%，這意味著在相同預算下可以進行更多的生成和迭代。在能力上，API版本繼承了ChatGPT Images的所有改進，特別是在圖像一致性方面表現更強：能夠跨編輯保持品牌Logo和關鍵視覺元素的一致性非常適合行銷材料製作（如圖形和Logo創作）適用於電商團隊，可基於單一源圖像生成完整的產品目錄（包括不同變體、場景和角度）目前，已有創意工具、電商、行銷軟體等領域的企業開始使用GPT Image 1.5。最後ChatGPT Images的新版本即日起向全球所有ChatGPT使用者和API使用者推送。該功能跨模型工作，使用者在使用時無需進行額外選擇至於今年早些時候推出的舊版ChatGPT Images，將作為一個自訂GPT（Custom GPT）保留，供有需要的使用者繼續使用 (AI寒武紀)